在这项工作中,我们开发了新的自学习技术,具有基于注意的序列 - 序列(SEQ2Seq)模型,用于自动语音识别(ASR)。对于未筛选的语音数据,ASR系统的假设必须用作标签。然而,不完美的ASR结果使得无监督的学习难以始终如一地提高识别性能,特别是在多个强大的教师模型不可用的情况下。与传统的无监督学习方法相比,我们采用\ emph {多任务学习}(MTL)框架,其中$ N $最佳ASR假设用作每个任务的标签。通过MTL框架更新SEQ2Seq网络,以查找可以涵盖多个假设的公共表示。通过这样做,可以缓解\ emph {硬决策}错误的效果。我们首先通过在美国和英国英语演讲之间通过ASR实验证明我们的自学方法的有效性。我们的实验结果表明,与仅与美国英语数据培训的基线模型相比,我们的方法可以将英国语音数据上的WER减少14.55 \%至10.36 \%。此外,我们研究了我们提出的方法在联邦学习情景中的效果。
translated by 谷歌翻译
专家(MOE)的稀疏门控混合物可以用少量计算复杂性来放大网络容量。在这项工作中,我们调查多语言自动语音识别(ASR)网络如何用简单的路由算法进行缩放,以便实现更好的准确性。更具体地,我们将稀疏门的MOE技术应用于两种网络:序列到序列变压器(S2S-T)和变压器换能器(T-T)。我们通过一组关于多语言数据的一组ASR实验证明了MOE网络可以分别使用S2S-T和T-T将相对字误差率降低16.5 \%和4.7 \%。此外,我们在各种条件下彻底调查了MOE对T-T架构上的T-T架构的影响:流模式,非流模式,使用语言ID和带有MOE的标签解码器。
translated by 谷歌翻译
随着姿势估计和图形卷积网络的进步,基于骨架的两人互动识别一直在越来越多的关注。尽管准确性逐渐提高,但计算复杂性的提高使其在现实环境中更不切实际。由于常规方法不能完全代表体内关节之间的关系,因此仍然存在准确性改善的空间。在本文中,我们提出了一个轻巧的模型,以准确识别两人的交互。除了结合了中间融合的体系结构外,我们还引入了一种分解卷积技术,以减少模型的重量参数。我们还引入了一个网络流,该网络说明体内关节之间的相对距离变化以提高准确性。使用两个大规模数据集NTU RGB+D 60和120的实验表明,与常规方法相比,我们的方法同时达到了最高准确性和相对较低的计算复杂性。
translated by 谷歌翻译
我们提出了一种模块化方法,将深神经网络(DNN)分解成小模块,从功能透视中重新编译到一些其他任务的新模型中。预计分解模块由于其体积小而具有可解释性和可验证性的优点。与基于重用模型的现有研究相比,涉及再培训的重复模型,例如传输学习模型,所提出的方法不需要再培训并且具有广泛的适用性,因为它可以容易地与现有的功能模块组合。所提出的方法利用重量掩模提取模块,可以应用于任意DNN。与现有研究不同,它不需要对网络架构的假设。要提取模块,我们设计了一种学习方法和损耗功能,可以最大化模块之间的共享权重。结果,可以重新编码提取的模块而不会大大增加。我们证明所提出的方法可以通过在模块之间共享重量来分解和重​​新测试具有高压缩比和高精度的DNN,并且优于现有方法。
translated by 谷歌翻译
Agricultural image recognition tasks are becoming increasingly dependent on deep learning (DL); however, despite the excellent performance of DL, it is difficult to comprehend the type of logic or features of the input image it uses during decision making. Knowing the logic or features is highly crucial for result verification, algorithm improvement, training data improvement, and knowledge extraction. However, the explanations from the current heatmap-based algorithms are insufficient for the abovementioned requirements. To address this, this paper details the development of a classification and explanation method based on a variational autoencoder (VAE) architecture, which can visualize the variations of the most important features by visualizing the generated images that correspond to the variations of those features. Using the PlantVillage dataset, an acceptable level of explainability was achieved without sacrificing the classification accuracy. The proposed method can also be extended to other crops as well as other image classification tasks. Further, application systems using this method for disease identification tasks, such as the identification of potato blackleg disease, potato virus Y, and other image classification tasks, are currently being developed.
translated by 谷歌翻译